Wprowadzenie
Na przestrzeni ostatnich lat zauważono stopniowy spadek rozmiaru śledzia oceanicznego wyławianego w Europie. Do analizy zebrano pomiary śledzi i warunków w jakich żyją z ostatnich 60 lat. Dane były pobierane z połowów komercyjnych jednostek. W ramach połowu jednej jednostki losowo wybierano od 50 do 100 sztuk trzyletnich śledzi.
Inicjalizacja środowiska
library(ggplot2)
library(dplyr)
library(DT)
library(GGally)
library(magick)
library(cowplot)
# ustawmy seed'a dla randoma w celu powtarzalności wyników
set.seed(1234)
Zainicjujmy również funkcje pomocnicze do prezentacji danych
prettyTable <- function(table_df, round_columns=numeric(), round_digits=2) {
DT::datatable(table_df, style="bootstrap", filter = "top", rownames = FALSE, extensions = "Buttons",
options = list(dom = 'Bfrtip', buttons = c('copy', 'csv', 'excel', 'pdf', 'print'))) %>%
formatRound(round_columns, round_digits)
}
Import danych
Dane znajdują się w pliku sledzie.csv załączonym w repozytorium. Opisy ich atrybutów można znaleźć w treści zadania; dla wygody jednak zamieszczono go również poniżej:
Kolejne kolumny w zbiorze danych to:
- length: długość złowionego śledzia [cm];
- cfin1: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1];
- cfin2: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2];
- chel1: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1];
- chel2: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2];
- lcop1: dostępność planktonu [zagęszczenie widłonogów gat. 1];
- lcop2: dostępność planktonu [zagęszczenie widłonogów gat. 2];
- fbar: natężenie połowów w regionie [ułamek pozostawionego narybku];
- recr: roczny narybek [liczba śledzi];
- cumf: łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku];
- totaln: łączna liczba ryb złowionych w ramach połowu [liczba śledzi];
- sst: temperatura przy powierzchni wody [°C];
- sal: poziom zasolenia wody [Knudsen ppt];
- xmonth: miesiąc połowu [numer miesiąca];
- nao: oscylacja północnoatlantycka [mb].
Wiersze w zbiorze są uporządkowane chronologicznie.
sourceDataFileName <- "sledzie.csv"
Dokonajmy wstępnego wczytania danych - pierwszych 100 wierszy w celu automatycznego określenia klasy oraz podglądu danych
initialHerringData <- read.csv(sourceDataFileName, nrows = 100)
classes <- sapply(initialHerringData, class)
classes
X length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar recr cumf totaln sst sal
"integer" "numeric" "factor" "factor" "factor" "factor" "factor" "factor" "numeric" "integer" "numeric" "numeric" "factor" "numeric"
xmonth nao
"integer" "numeric"
Jak widać, większość danych została zakwalifikowana jako factor mimo, że z opisu wynika, że są to liczby. Wczytajmy zatem cały plik w odpowiednich klasach - wartości brakujące reprezentuje ?, natomiast jako separator dziesiętny przyjmujemy kropkę .. Plik nie zawiera również komentarzy. Szybka analiza pliku pozwoliła również na identyfikację, że zbiór składa się z około 52.6 tys wierszy - informację tą wykorzystamy w celu przyśpieszenia importu.
classes <- c("NULL", rep(c("numeric"), 13), "factor", "numeric")
herringData <- read.csv(sourceDataFileName, comment.char = "", header=TRUE, colClasses = classes, nrows=52600, dec = ".", na.strings = c("?"))
Omówienie danych
Sprawdzmy czy rozmiary zbioru pokrywają się z oczekiwaniami
dim(herringData)
[1] 52582 15
Wygląda na to, że dane zostały poprawnie wczytane. Zobaczmy je więc
prettyTable(head(herringData, n = 100))
Następnie przeprowadzmy krótkie podsumowanie
summary(herringData)
length cfin1 cfin2 chel1 chel2 lcop1 lcop2 fbar
Min. :19.0 Min. : 0.0000 Min. : 0.0000 Min. : 0.000 Min. : 5.238 Min. : 0.3074 Min. : 7.849 Min. :0.0680
1st Qu.:24.0 1st Qu.: 0.0000 1st Qu.: 0.2778 1st Qu.: 2.469 1st Qu.:13.427 1st Qu.: 2.5479 1st Qu.:17.808 1st Qu.:0.2270
Median :25.5 Median : 0.1111 Median : 0.7012 Median : 5.750 Median :21.673 Median : 7.0000 Median :24.859 Median :0.3320
Mean :25.3 Mean : 0.4458 Mean : 2.0248 Mean :10.006 Mean :21.221 Mean : 12.8108 Mean :28.419 Mean :0.3304
3rd Qu.:26.5 3rd Qu.: 0.3333 3rd Qu.: 1.7936 3rd Qu.:11.500 3rd Qu.:27.193 3rd Qu.: 21.2315 3rd Qu.:37.232 3rd Qu.:0.4560
Max. :32.5 Max. :37.6667 Max. :19.3958 Max. :75.000 Max. :57.706 Max. :115.5833 Max. :68.736 Max. :0.8490
NA's :1581 NA's :1536 NA's :1555 NA's :1556 NA's :1653 NA's :1591
recr cumf totaln sst sal xmonth nao
Min. : 140515 Min. :0.06833 Min. : 144137 Min. :12.77 Min. :35.40 8 : 9920 Min. :-4.89000
1st Qu.: 360061 1st Qu.:0.14809 1st Qu.: 306068 1st Qu.:13.60 1st Qu.:35.51 10 : 7972 1st Qu.:-1.89000
Median : 421391 Median :0.23191 Median : 539558 Median :13.86 Median :35.51 7 : 6922 Median : 0.20000
Mean : 520367 Mean :0.22981 Mean : 514973 Mean :13.87 Mean :35.51 9 : 5714 Mean :-0.09236
3rd Qu.: 724151 3rd Qu.:0.29803 3rd Qu.: 730351 3rd Qu.:14.16 3rd Qu.:35.52 6 : 4218 3rd Qu.: 1.63000
Max. :1565890 Max. :0.39801 Max. :1015595 Max. :14.73 Max. :35.61 5 : 3736 Max. : 5.08000
NA's :1584 (Other):14100
Jak widać, śledzie mają długość w przedziale 19-32.5 cm, z medianą ustaloną dla wartości 25.5 cm, najwięcej śledzi wyławia się w sierpniu, październiku oraz lipcu. Można również stwierdzić, że liczba brakujących danych dla pól cfin, chel1, lcop oraz sst jest porównywalna; dla innych column wszystkie dane są określone. Możemy również zwrócić uwagę na wielkość połowów - ich liczba mieści się w przedziale 14.4 - 101.6 tys z medianą na poziomie 54 tys oraz średnią 51.5 tys. Rozkład ten jest więc prawdopodobnie zbliżony do normalnego, co z resztą możemy sprawdzić.
ggplot(data=herringData, aes(x=totaln)) +
geom_density() +
labs(x = "Wielkość połowu", y = "Gęstość") +
theme_bw()

Niekoniecznie - nie przypomina on żadnego z popularnych rozkładów.
Mamy za zadanie zweryfikować, czy przez ostatnie kilka lat rozmiar śledzia spadł. Przydatny może okazać sie więc wykres prezentujący średni rozmiar na rok. Jest jednak jeden problem - w danych mamy jedynie miesiąc połowu, informację o tym, że są to dane chronologicznie posortowane oraz pochodzą z ostatnich 60 lat. Należy więc w miarę możliwości dodać rok do danych bazując na tych informacjach. Sprawdzmy jednak czy nie ma wśród tych danych brakujących wartości
sum(is.na(herringData$xmonth))
[1] 0
brak - możemy więc przejść dalej. Dane są chronologiczne, także powinniśmy być w stanie wywnioskować rok na podstawie zmiany miesiąca na mniejszy
evaluateYearByMonthChange <- function(fishing) {
curYear <- 0
recentMonth <- 0
l <- lapply(fishing, function(v) {
v<- as.integer(v)
if (v < recentMonth)
curYear <<- curYear + 1
recentMonth <<- v
curYear
})
unlist(l)
}
herringDataWithYearByMonthChange <- mutate(herringData, year=evaluateYearByMonthChange(xmonth))
herringDataWithYearByMonthChange
Pogrupujmy je po roku dzięki funkcji
statsInYear <- function(dataWithYear) {
dataWithYear %>%
group_by(year) %>%
summarise_at(vars(length), funs(mean(., na.rm=TRUE), min = mean - sd(., na.rm= TRUE), max = mean + sd(., na.rm= TRUE)))
}
meanLengthInYearChart <- function(dataWithYear) {
meanPerYear <- statsInYear(dataWithYear)
ggplot(data=meanPerYear, aes(x = year, y = mean)) +
geom_ribbon(aes(ymin = min, ymax = max), alpha = 0.5, fill = "darkseagreen3", color = "transparent") +
geom_line(color = "aquamarine4", lwd = 0.7) +
labs(x = "Rok", y = "Długość śledzia") +
theme_bw()
}
meanLengthInYearChart(herringDataWithYearByMonthChange)

Założenie o chronologii jak widać okazało się błędne, przynajmniej w zakresie kolejności miesięcy. Jest również pole recr mówiące o połowie w roku. Widzimy, ze występuje pewna powtarzalność, więc jeśli dane byłyby chronologiczne, a zarazem ich rozpiętość jest całkiem spora, powinno to pozwolić na zgrupowanie.
evaluateYear <- function(fishing) {
curYear <- 0
recentYearFishing <- 0
l <- lapply(fishing, function(v) {
if (v != recentYearFishing)
curYear <<- curYear + 1
recentYearFishing <<- v
curYear
})
unlist(l)
}
herringDataWithYearByRecr <- mutate(herringData, year=evaluateYear(recr))
herringDataWithYearByRecr
meanLengthInYearChart(herringDataWithYearByRecr)

Niestety, ponownie porażka. W takim razie może po prostu sprawdzmy czy występuje trend w czystych danych:
ggplot(herringData, aes(x=as.numeric(row.names(herringData)), y=herringData$length)) +
geom_line(color = "aquamarine4") +
labs(x = "Rok", y = "Długość śledzia") +
theme_bw()

Dobrze, jakąś zależność widać - może aby być jej pewnym uśrednijmy dane stosując prawo wielkich liczb oraz wiedzę o tym, że mamy do czynienia z danymi z okresu 60 lat
expectedYears <- 60
expectedRowsPerYears <- nrow(herringData) %/% 60
herringDataWithYearByPeriod <- herringData %>%
mutate(year = 1:n() %/% expectedRowsPerYears)
herringDataWithYearByPeriod
meanLengthInYearChart(herringDataWithYearByPeriod)
Error in mean.default(length, na.rm = TRUE, function (x, na.rm = FALSE, :
'trim' must be numeric of length one
Widzimy więc, że w rzeczywistości istnieje istotny spadek średniej długości śledzia na przełomie lat. Możemy to zwizualizować.
img <- image_read("herring.svg")
img <- image_trim(img)
heightRatio <- 110/475
maxWidth = 542
maxHeight <- heightRatio * maxWidth
herringsImgs <- statsInYear(herringDataWithYearByPeriod) %>%
apply(1, function(r) {
newWidth <- round((r[[2]] - 10) * 30)
widthDif <- round((maxWidth - newWidth)/2)
heightDif <- round(widthDif * heightRatio)
image_scale(img, newWidth) %>%
image_border("white", paste(c(widthDif, "x", heightDif), collapse = "")) %>%
image_annotate(paste(c("Rok: ", r[[1]]), collapse = ""), color = "black", size = 30)
})
frames <- image_morph(image_join(herringsImgs), frames = 1)
anim <- image_animate(frames, fps = 10)
image_write(anim, "herring.gif")

Zidentyfikujmy możliwe powody takiego zachowania wyznaczając macierz korelacji.
Wcześniej jednak należy zmienić typ kolumny xmonth z powrotem na liczbę i przygotować dane.
herringDataWithNumericMonth = mutate(herringData, xmonth = as.numeric(xmonth))
Zobaczmy wynik w bardziej przyjaznej formie
ggcorr(
herringDataWithNumericMonth,
nbreaks = 9,
label = TRUE,
label_size = 3,
color = "grey50",
layout.exp = 1,
hjust = 0.75,
)

Widać dużą korelację pomiędzy parami chel1 - lcop1, chel2 - lcop2, fbar - cumf, cfin2 - lcop2 oraz cumf - totaln. Na samą długość w największym stopniu wpływa sst, nao oraz fbar. Widzimy że lcop1, lcop2 oraz cumf mogą zostać pominięte w procesie dalszej analizy jako redundantne. Teoretycznie moglibyśmy również usunąć miesiąc ze względu na powtarzalność, ale może mieć on wpływ na cykl rozwojowy, więc pozostawmy go póki co.
filteredHerringDataWithNumericMonth <- select(herringDataWithNumericMonth, -c(lcop1, lcop2, cumf))
Zobaczmy jeszcze jak przebiega zależność pomiędzy najbardziej obiecującymi zmiennymi na długość; kolorami wyróżniono również miesiące
numericChart <- function(colName) {
ggplot(herringData, aes(x = length, y = herringData[[colName]], color=xmonth)) +
geom_jitter(size = 1.5, stat = "identity") +
labs(x = "Długość", y = colName)
}
plot_grid(
numericChart("chel1"),
numericChart("fbar"),
numericChart("sst"),
numericChart("nao")
)
Powiązanie rosnącego sst oraz nao jasno wpływa negatywnie na długość, przy fbar również można dostrzec pozywytną korelację.
Sprawdzmy również zależność pomiędzy miesiącem połowu a długością; w macierzy korelacji nie mogliśmy tego do konca zweryfikować, jednak ze względu na cykliczność było to również utrudnione (miesiąc w tym wypadku jest sztucznie liczbą).
numericChart("xmonth")

Wydaje się, że nie ma żadnej znaczącej zależności pomiędzy miesiącem połowu a długością śledzia
---
title: "Raport z analizy zmiany w rozmiarze wyławianego Śledzia Oceanicznego"
author: "Witold Kupś"
output: 
  html_notebook:
    toc: true
    toc_float: true
  github_document: default
date: "`r format(Sys.time(), '%d %B, %Y')`"
---
# Abstrakt

# Wprowadzenie

Na przestrzeni ostatnich lat zauważono stopniowy spadek rozmiaru śledzia oceanicznego wyławianego w Europie. Do analizy zebrano pomiary śledzi i warunków w jakich żyją z ostatnich 60 lat. Dane były pobierane z połowów komercyjnych jednostek. W ramach połowu jednej jednostki losowo wybierano od 50 do 100 sztuk trzyletnich śledzi.

### Inicjalizacja środowiska
```{r, echo = TRUE, results='hide'}
library(ggplot2)
library(dplyr)
library(DT)
library(GGally)
library(magick)
library(cowplot)
# ustawmy seed'a dla randoma w celu powtarzalności wyników
set.seed(1234)
```

Zainicjujmy również funkcje pomocnicze do prezentacji danych
```{r}
prettyTable <- function(table_df, round_columns=numeric(), round_digits=2) {
    DT::datatable(table_df, style="bootstrap", filter = "top", rownames = FALSE, extensions = "Buttons",
                  options = list(dom = 'Bfrtip', buttons = c('copy', 'csv', 'excel', 'pdf', 'print'))) %>%
    formatRound(round_columns, round_digits)
}
```

### Import danych

Dane znajdują się w pliku `sledzie.csv` załączonym w repozytorium. Opisy ich atrybutów można znaleźć w [treści zadania](http://www.cs.put.poznan.pl/alabijak/emd/projekt/projekt_analiza.html); dla wygody jednak zamieszczono go również poniżej:

Kolejne kolumny w zbiorze danych to:

- length: długość złowionego śledzia [cm];
- cfin1: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1];
- cfin2: dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2];
- chel1: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1];
- chel2: dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2];
- lcop1: dostępność planktonu [zagęszczenie widłonogów gat. 1];
- lcop2: dostępność planktonu [zagęszczenie widłonogów gat. 2];
- fbar: natężenie połowów w regionie [ułamek pozostawionego narybku];
- recr: roczny narybek [liczba śledzi];
- cumf: łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku];
- totaln: łączna liczba ryb złowionych w ramach połowu [liczba śledzi];
- sst: temperatura przy powierzchni wody [°C];
- sal: poziom zasolenia wody [Knudsen ppt];
- xmonth: miesiąc połowu [numer miesiąca];
- nao: oscylacja północnoatlantycka [mb].

Wiersze w zbiorze są uporządkowane chronologicznie.
```{r}
sourceDataFileName <- "sledzie.csv"
```

Dokonajmy wstępnego wczytania danych - pierwszych 100 wierszy w celu automatycznego określenia klasy oraz podglądu danych
```{r}
initialHerringData <- read.csv(sourceDataFileName, nrows = 100)
classes <- sapply(initialHerringData, class)
classes
```
Jak widać, większość danych została zakwalifikowana jako factor mimo, że z opisu wynika, że są to liczby. Wczytajmy zatem cały plik w odpowiednich klasach - wartości brakujące reprezentuje `?`, natomiast jako separator dziesiętny przyjmujemy kropkę `.`. Plik nie zawiera również komentarzy.
Szybka analiza pliku pozwoliła również na identyfikację, że zbiór składa się z około 52.6 tys wierszy - informację tą wykorzystamy w celu przyśpieszenia importu.
```{r}
classes <- c("NULL", rep(c("numeric"), 13), "factor", "numeric")
herringData <- read.csv(sourceDataFileName, comment.char = "", header=TRUE, colClasses = classes, nrows=52600, dec = ".", na.strings = c("?"))
```


# Omówienie danych
Sprawdzmy czy rozmiary zbioru pokrywają się z oczekiwaniami
```{r}
dim(herringData)
```

Wygląda na to, że dane zostały poprawnie wczytane.
Zobaczmy je więc
```{r}
prettyTable(head(herringData, n = 100))
```


Następnie przeprowadzmy krótkie podsumowanie
```{r}
summary(herringData)
```
Jak widać, śledzie mają długość w przedziale 19-32.5 cm, z medianą ustaloną dla wartości 25.5 cm, najwięcej śledzi wyławia się w sierpniu, październiku oraz lipcu. Można również stwierdzić, że liczba brakujących danych dla pól *cfin*, *chel1*, *lcop* oraz *sst* jest porównywalna; dla innych column wszystkie dane są określone. 
Możemy również zwrócić uwagę na wielkość połowów - ich liczba mieści się w przedziale 14.4 - 101.6 tys z medianą na poziomie 54 tys oraz średnią 51.5 tys. Rozkład ten jest więc prawdopodobnie zbliżony do normalnego, co z resztą możemy sprawdzić.

```{r}
  ggplot(data=herringData, aes(x=totaln)) +
  geom_density() +
  labs(x = "Wielkość połowu", y = "Gęstość") +
  theme_bw()
```
Niekoniecznie - nie przypomina on żadnego z popularnych rozkładów.

Mamy za zadanie zweryfikować, czy przez ostatnie kilka lat rozmiar śledzia spadł. Przydatny może okazać sie więc wykres prezentujący średni rozmiar na rok. Jest jednak jeden problem - w danych mamy jedynie miesiąc połowu, informację o tym, że są to dane chronologicznie posortowane oraz pochodzą z ostatnich 60 lat. Należy więc w miarę możliwości dodać rok do danych bazując na tych informacjach.
Sprawdzmy jednak czy nie ma wśród tych danych brakujących wartości
```{r}
sum(is.na(herringData$xmonth))
```
brak - możemy więc przejść dalej.
Dane są chronologiczne, także powinniśmy być w stanie wywnioskować rok na podstawie zmiany miesiąca na mniejszy

```{r}
evaluateYearByMonthChange <- function(fishing) {
  curYear <- 0
  recentMonth <- 0
  l <- lapply(fishing, function(v) {
    v<- as.integer(v)
    if (v < recentMonth)
      curYear <<- curYear + 1
    recentMonth <<- v
    curYear
  })
  unlist(l)
}

herringDataWithYearByMonthChange <- mutate(herringData, year=evaluateYearByMonthChange(xmonth))
herringDataWithYearByMonthChange
```
Pogrupujmy je po roku dzięki funkcji
```{r}
statsInYear <- function(dataWithYear) {
  dataWithYear %>%
    group_by(year) %>%
    summarise_at(vars(length), funs(mean(., na.rm=TRUE), min = mean - sd(., na.rm= TRUE), max = mean + sd(., na.rm= TRUE)))
}

meanLengthInYearChart <- function(dataWithYear) {
  meanPerYear <- statsInYear(dataWithYear)
  ggplot(data=meanPerYear, aes(x = year, y = mean)) +
    geom_ribbon(aes(ymin = min, ymax = max), alpha = 0.5, fill = "darkseagreen3", color = "transparent") +
      geom_line(color = "aquamarine4", lwd = 0.7) + 
    labs(x = "Rok", y = "Długość śledzia") +
  theme_bw()
}
```

```{r}
meanLengthInYearChart(herringDataWithYearByMonthChange)
```
Założenie o chronologii jak widać okazało się błędne, przynajmniej w zakresie kolejności miesięcy. Jest również pole `recr` mówiące o połowie w roku. Widzimy, ze występuje pewna powtarzalność, więc jeśli dane byłyby chronologiczne, a zarazem ich rozpiętość jest całkiem spora, powinno to pozwolić na zgrupowanie.
```{r}
evaluateYear <- function(fishing) {
  curYear <- 0
  recentYearFishing <- 0
  l <- lapply(fishing, function(v) {
    if (v != recentYearFishing)
      curYear <<- curYear + 1
    recentYearFishing <<- v
    curYear
  })
  unlist(l)
}

herringDataWithYearByRecr <- mutate(herringData, year=evaluateYear(recr))
herringDataWithYearByRecr
```
```{r}
meanLengthInYearChart(herringDataWithYearByRecr)
```
Niestety, ponownie porażka. W takim razie może po prostu sprawdzmy czy występuje trend w czystych danych:
```{r}
ggplot(herringData, aes(x=as.numeric(row.names(herringData)), y=herringData$length)) +
  geom_line(color = "aquamarine4") +
  labs(x = "Rok", y = "Długość śledzia") + 
  theme_bw()
```
Dobrze, jakąś zależność widać - może aby być jej pewnym uśrednijmy dane stosując prawo wielkich liczb oraz wiedzę o tym, że mamy do czynienia z danymi z okresu 60 lat
```{r}
expectedYears <- 60
expectedRowsPerYears <- nrow(herringData) %/% 60
herringDataWithYearByPeriod <- herringData %>%
  mutate(year = 1:n() %/% expectedRowsPerYears)
herringDataWithYearByPeriod
```
```{r}
meanLengthInYearChart(herringDataWithYearByPeriod)
```
Widzimy więc, że w rzeczywistości istnieje istotny spadek średniej długości śledzia na przełomie lat. Możemy to zwizualizować.
```{r}
img <- image_read("herring.svg")
img <- image_trim(img)
heightRatio <- 110/475
maxWidth = 542
maxHeight <- heightRatio * maxWidth
herringsImgs <- statsInYear(herringDataWithYearByPeriod) %>%
  apply(1, function(r) {
    newWidth <- round((r[[2]] - 10) * 30)
    widthDif <- round((maxWidth - newWidth)/2)
    heightDif <- round(widthDif * heightRatio)
    image_scale(img, newWidth) %>%
        image_border("white", paste(c(widthDif, "x", heightDif), collapse = "")) %>%
        image_annotate(paste(c("Rok: ", r[[1]]), collapse = ""), color = "black", size = 30)
  })
frames <- image_morph(image_join(herringsImgs), frames = 1)
anim <- image_animate(frames, fps = 10)
image_write(anim, "herring.gif")
```

![](herring.gif)

Zidentyfikujmy możliwe powody takiego zachowania wyznaczając macierz korelacji.

Wcześniej jednak należy zmienić typ kolumny `xmonth` z powrotem na liczbę i przygotować dane.
```{r}
herringDataWithNumericMonth = mutate(herringData, xmonth = as.numeric(xmonth))
```
Zobaczmy wynik w bardziej przyjaznej formie
```{r}
ggcorr(
  herringDataWithNumericMonth,
  nbreaks = 9,
  label = TRUE,
  label_size = 3,
  color = "grey50",
  layout.exp = 1,
  hjust = 0.75,
)
```
Widać dużą korelację pomiędzy parami `chel1` - `lcop1`, `chel2` - `lcop2`, `fbar` - `cumf`, `cfin2` - `lcop2` oraz `cumf` - `totaln`. Na samą długość w największym stopniu wpływa `sst`, `nao` oraz `fbar`.
Widzimy że `lcop1`, `lcop2` oraz `cumf` mogą zostać pominięte w procesie dalszej analizy jako redundantne. Teoretycznie moglibyśmy również usunąć miesiąc ze względu na powtarzalność, ale może mieć on wpływ na cykl rozwojowy, więc pozostawmy go póki co.
```{r}
filteredHerringDataWithNumericMonth <- select(herringDataWithNumericMonth, -c(lcop1, lcop2, cumf))
```


Zobaczmy jeszcze jak przebiega zależność pomiędzy najbardziej obiecującymi zmiennymi na długość; kolorami wyróżniono również miesiące
```{r}
numericChart <- function(colName) {
  ggplot(herringData, aes(x = length, y = herringData[[colName]], color=xmonth)) +
    geom_jitter(size = 1.5, stat = "identity") +
    labs(x = "Długość", y = colName)
}
```

```{r}
plot_grid(
  numericChart("chel1"),
  numericChart("fbar"),
  numericChart("sst"),
  numericChart("nao")
)
```

Powiązanie rosnącego `sst` oraz `nao` jasno wpływa negatywnie na długość, przy `fbar` również można dostrzec pozywytną korelację.

Sprawdzmy również zależność pomiędzy miesiącem połowu a długością; w macierzy korelacji nie mogliśmy tego do konca zweryfikować, jednak ze względu na cykliczność było to również utrudnione (miesiąc w tym wypadku jest sztucznie liczbą).

```{r}
numericChart("xmonth")
```
Wydaje się, że nie ma żadnej znaczącej zależności pomiędzy miesiącem połowu a długością śledzia

